#retardo máximo

Estrategia Minimax Óptima para Observaciones Retrasadas en Aprendizaje por Refuerzo Online

Descubre la estrategia Minimax óptima para RL con observaciones retrasadas. Logra cotas de arrepentimiento ajustadas en MDPs tabulares.